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5 1, BESCHREIBUNG DES STANDES DER TECHNIK 

Sprachcodierung (Sprachverschlusselung) wird in vie- 
len Kommunikationsbereichen angewendet: von einer 
Ubertragung uber Satellit zum Mobilfunk, speicher- 
vermittelnden Systemen, automatische Antwortsender 

io usw . 

Insbesondere besteht ein starkes Bediirf nis nach 
wirksamen Technikeri fur die Spf achsignalcodierung 
dort, wo erkennbare Bandbegrenzungen vorhanden sind 

15 (betrachte die "begrenzte" Verfugbarkeit von Band- 
breite in dem Ather) ; deshalb ist es wichtig, in 
der Lage zu sein, die zu ubertragende Bitrate dra- 
stisch zu reduzieren und dabei weiterhin eine hohe 
Qualitat des ernpfangenen Signals aufrecht zu erhal- 

20. ten . 



Zu diesetn Zweck werden verschiedene Sprachsignal- 
Codiertechniken verwendet; die ublichsten (die eine 
hohe Qualitat des ernpfangenen Signals unter ver- ; 
25 schiedenen Bitraten sicherstellen) basieren auf den 
LP (Linear Prediction: lineare Vorhersage) und A-b- 
S (Analysis -by-Synthesis: Analyse durch Synthese) - 
Prinzipien (P. Kroon, E.F. Deprettere "A class of 



analysis -by- synthesis predictive coders for high 
quality speech coding at rates between 4.8 and 16 
Kbits/s", IEEE Journal on Selected Areas in Commu- 
nications, Bd. 6, Nr. 2, Seiten 353-363, Februar 
1988) . 

Die vorliegende Beschreibung offenbart einige Tech- 
niken zur Verbesserung der Eigenschaf ten von auf 
den vorstehend erwahnten Techniken basierenden 
Sprachcodierern. Nach einem Aspekt der Erfindung 
ist ein Anregungsparameter-Berechnungsverf ahren gemaS 
Anspruch 1 angegeben. Nach einem weiteren Aspekt 
der Erfindung ist ein Toncodierer gemaS Anspruch 6 
geschaf f en. 

Die Sprachcodierer , die auf der linearen Vorhersage 
(LP) basieren, sind parametrische Codierer; typi- 
scherweise werden Analyse -durch-Synthese- (A-b-S) - 
Techniken fur eine korrekte Bestimmung der Para- 
meter des Systems verwendet. Solche Codierer syn- 
thetisieren die Sprache durch die Verwendung einer 
geeigneten Eingangsanregung bei einem Synthese-LP- 
Filter . 

Insbesondere sollte die Anregung die Charakteristi- 
ken der "physischen" Anregungs signal form aufweisen, 
die von der Stimmritze kommend dann als Funktion 



der Charakteristiken des Systems, das das Sprach- 
segment simuliert (LP-Filter) , spektral modif iziert 
wird. 

Die modernsten A-b-S-Codierer verwenden eine Anre- 
gungsstruktur, die sich aus einem Adaptiven Code- 
buch und aus einem (eventuell strukturierten) Fe- 
sten Codebuch zusammensetzen. Ohne Beeintrachtigung 
der Allgemeinheit kann angenommen werden, daS sich 
das Feste Codebuch aus unabhangigen Vektoren aus 
Zuf allszahlen zusammensetzt , wie dies bei CELP- 
Codierern der Fall ist (M.R. Schroeder, B.S. Atal, 
"Code Excited Linear Prediction (CELP) : high-quality- 
speech at very low bit rates", Proc . ICASSP, '85, 
Seiten 937-940. 

In Fig. 1 ist ein Blockdiagramm eines typischen 
CELP-Sprachsynthesizers dargestellt; Block LPC-IIR 
bezeichnet das Synthesizerf ilter zur Rekonstruktion 
der Sprachsignalf orm; e a (n) ist der adaptive 
Codebuch-Vektor (und Ga ist der entsprechende 
Skalierungsfaktor) und e s (n) ist der feste Code- 
listen-Vektor (und Gs ist der entsprechende 
Skalierungsfaktor); e(n) ist der zusatnmengesetzte 
Anregungsvektor. Fur eine detaillierte Beschreibung 
des Synthesizers kann auf W.B. Kleijn, D.J. 
Krasinski, R.H. Ketchum "Improved Speech Quality 
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and Efficient Vector Quantization in SELP" , Proc . 
ICASSP '88, Seiten 155-158 Bezug genommen werden. 

Im allgemeinen werden e a (n) und e s (n) aus einem 
5 geeigneten Satz von Vektoren gewahlt und werden 
mit jeweiligen Ga und Gs" gleichzeitig bestimmt. 
Die Bestimmung erfolgt in einem Zeitintervall von 
etwa 5 bis 10 ms (Analyserahmen) und basiert auf 
der Minimierung der Zielfunktion nach dem gut be- 
10 kannten Kriterium des wahrnehmungsmaSig gewichteten 
quadratischen Mittelwertf ehlers (siehe M.R. Schroe- 
der, B.S. Atal, "Code Excited Linear Prediction 
(CELP) : high-quality speech . at very low bit-rates", 
Proc. ICASSP, '85, Seiten 937-940, gemaS dem foi- 
ls genden Ausdruck: 

E = £ Irfii) - Gu ( (n)] 2 

(1) 

wobei N die Lange des Zeit interval Is fur die Mini- 
20 mierung ist; u ± (n) die Null-Zustand-Synthesef ilter- 
antwort an dem i-ten Eingang des Codebuches 
(entweder adapt iv oder fest) und G die entspre- 
chende Verstarkung ist; schlieSlich ist r s (n) das 
Ref erenzsignal oder "Ziel" -Signal (d.h. das ur- 
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sprungliche Sprachsegment , von dem der Beitrag des 
Rekonstruktionsf ilterspeichers , abgeleitet von einer 
vorhergehenden Synthese, subtrahiert wurde) . 

5 Obgleich haufig verwendet, kann die bei (1) be- 
schriebene Zielfunktion fur die Wahl der Parameter 
nicht optimal sein. Insbesondere ist zu beachten, 
dafi das System zufallig ist: dies bringt es mit 
si eh., dafi der von den Anregungsabtastungen in der 

10 Nahe von n = 0 herruhrende Beitrag zu dem Syn- 
thesesignal im allgemeinen groSer als der Beitrag 
ist, der von den Anregungsabtastungen in der Nahe 
von n = N - 1 herruhrt. Diese Tatsache kann 
eine schlechte Naherung der idealen Anregung wah- 

15 rend Segmenten von Sprachsignalen bewirken. Unter 
diesen Umstanden zeigt die ideale Anregung die 
Charakteristik von quasi-periodischen "Teilungsimpul- 
sen" . Diese synthetische Anregung soil in diesem 
Fall die Teilungsimpulse mit der richtigen zeitli- 

20 chen Ausrichtung und der. richtigen Amplitude bein- 
halten. In dem Fall, in dem sich die Impulse der 
idealen Anregung (ublicherweise als "Vorhersage- 
Ruckstand" bezeichnet) an dem Ende des Mini- 
mierungs interval Is (d.h. fur n in der Nahe von N 

25 - 1) befinden, wird ihre Rekonstruktion problemati- 
scher, da ihr Beitrag innerhalb des Minimierungs- 
intervalls weniger "wiegt" . 



Dieses Phanomen wird wahrend den Signaltransienten, 
d.h. in den Ubergangen von sprachfreien Segmenten 
zu Sprachsegmenten und innerhalb der Sprachabschnit- 
te in den Segmenten, in denen die ideal e Anregung 
aufgrund der Vorhersagef iltervariationen ihre Form 
andert (wobei weiterhin die "quasi-periodische" Cha 
rakteristik auf rechterhalten wird) noch deutlicher. 

Im Folgenden werden zwei mogliche Vorgehensweisen 
zur Uberwindung der vorstehend beschriebenen Proble 
me beschrieben; diese Vorgehensweisen konnen sowohl 
entweder einzeln als auch gemeinsam verwendet wer- 
den und ermoglichen, daS die Charakteristiken der 
bei verschiedenen Bitraten arbeitenden A-b-S-Codie- 
rer verbessert werden. 

2. AUF FREIER ENTW I CKLUNG BASIERENDE VORGEHENS- 

WEISE 

Eine erste Vorgehensweise besteht darin, als ein 
Ref erenzsignal der Zielfunktion (d.h. dem Signal 
r s (n) der Gleichung (1)) ein Signal r a Gl (n) zu ver- 
wenden, das langer als N Abtastungen ist. Ein 
solches Signal wird aus der zeitlichen Verknupfung 
der Signale r s (n) (fur n = 0 ... N - 1) und aus 
der freien Entwicklung eines solchen Signals erhal 
ten, und dieses freie Entwicklungs-el (n) wird er- 
halten, indem die letzten p Abtastungen von r 3 (n) 



in dem Synthesef ilterspeicher LPC-IIR (wobei p die 
Ordnung des Filters ist) geladen werden und indem 
das Filter "entladen" wird, d.h. indem es seinen 
Ausgang entsprechend einem Null-Eingang berechnet. 

Demzufolge wird erhalten: 

r s (n), n = 0..N-1 (2) 
el (n) , n = N. .N-l+M (3) 

wobei M die freie Entwicklungslange ist, 

Eine solche Vorgehensweise kann in folgender Weise 
gerechtf ertigt werden; Die Sprache kann stets als 
von einer idealen Anregung erhalten betrachtet wer- 
den,. was den Eingang eines Allpol -Synthesef ilters , 
(des in Fig. 1 mit LPC-IIR bezeichneten Filters) 
reprasentiert . Eine derartige ideale Anregung ist 
nichts anderes als die Vorhersageverzogerung, die 
durch eine Filterung der Sprache durch das "in- 
verse Filter", d.h. das von LPC-IIR abgeleitete 
All-Null- (Dauer-Null) -Filter, erhalten wird. 

Angenommen, man fuhrt eine strichweise stationare 
Analyse des Sprachsignals durch: Dann bildet die 
ideale Anregung innerhalb des Analyseintervalls den 
Zwangsausdruck fur das Synthesef ilter . Wenn jedoch 



r s ei (n) = 
r s el (n) = 



am Ende des Analyseintervalls der Eingang des Fil- 
ters "ausgeschaltet" wird (d.h. die ideale Anregung 
auf Null gesetzt wird) , wird das Synthesef ilter 
gemafi einer Signalform entladen, die von seinen 
Polen und von den Abtastungen der idealen Anregung 
(insbesondere jenen, die dem Zeitpunkt n = . N - 1 
gerade vorhergehen) abhangt . 

Es ist deshalb of f ensichtlich, dafi in dem Fall, in 
dem die letzten Abtastungen der idealen Anregung 
wesentlich sind (beispielsweise wenn ein Ton- 
teilungsimpuls vorhanden ist) und das Filter, sich 
nahe einer Instabilitat befindet (beispielsweise 
wahrend Segmenten von Sprachsignalen) , die f reie 
Entwicklung des Filters aufgrund der idealen Anre- 
gung typischerweise sinusformige Oszillationen zei- 
gen wird, die ziemlich langsam abklingen werden 
und deshalb der Ausdruck el(n) der Gleichung (3) 
einen betracht lichen Beitrag bilden wird. 

Fur eine hohe Qualitat des rekonstruierten Signals 
ist es sehr wichtig, dafi die synthetische Anregung 
spektrale und Zeitpunkt- (beispielsweise der 
Te i lungs impuls) Charakteristiken ahnlich jener der 
idealen Anregung hat. Es ist deshalb off ensicht- 
lich, daS durch Hinzunahme der Beitrage der sowohl 
auf die ideale Anregung als auch auf die syntheti- 



sche Anregung zuruckgehenden freien Entwicklungen in 



die Zielfunktion es moglich ist, eine korrektere 
Wahl der letzteren durchzufuhren* Abhangig von 
den spektralen/zeitlichen Charakteristiken des Si- 
gnals kann die Dif f erenz zwischen der idealen 
freien Entwicklung und der synthetischen ein vor- 
herrschendes Gewicht in der modif izierten Zielfunk- 
tion haben. 

In Gleichungen konnen die vorstehend erwahnten Kon- 
zepte gemafi der umgeschriebenen Zielfunktion ausge- 
druckt werden: 




(4) 



in welcher 



Ui el (n) 



= u A (n) , n 



= 0. . 



N-l 



(5) 



Ui ei (n) 



el x (n) , n = N. .N-l+M 



(6) 



wobei Ui(n) die (Null-Zustand) -Synthesef ilterantwort 
an dem i-ten Eingang und eli (n) die entsprechende 
"synthetische" freie Entwicklung ist. 
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Die Anregungsparameter (d;h. der i-te Index und 
die entsprechende Verstarkung G) werden dann in 
solcher Weise gewahlt, urn die modif izierte Ziel- 
funktion (4) zu minimieren. 

Urn beispielsweise die "ursprungliche" freie Entwick- 
lung el (n) zu erhalten, kann man in der folgenden 
Weise vorgehen: 

inverses Filtern (durch ein Samtliche -Null -Fil- 
ter) des Sprachsignals wahrend des Intervalls 
0...N - 1, wobei die ideale Anregung (Vorhersa- 
ge-Ruckstand) , begrenzt auf das Zeitintervall 0 
. . .N - 1, erhalten wird. 

An dera Eingang des Synthesef ilters LPC-IIR die 
dabei erhaltene ideale Anregung bereitstellen, 
und an dem Ausgang wieder das. ursprungliche 
Sprachsignal innerhalb des Zeitintervalls 
-1 erhalten. 

Ausgehend von dem auf diese Weise erhaltenen 
Endstatus des Synthesef ilters Bereitstellen eines 
Nulleingangs an dem Eingang des Synthesef ilters, 
und das Filter fur eine Anzahl M von Abtastun- 
gen gleich der Lange der zu erhaltenden freien 
Entwicklung 11 ent laden" las sen . 

Aus der vorstehend beschriebenen Prozedur wird so- 
fort ersichtlich, daS keine Notwendigkeit besteht, 



den Vorhersage-Ruckstand zu berechnen. Urn die 
gewunschte freie Entwicklung zu erhalten, ist es 
ausreichend, die letzten p Abtastungen (p stellt 
die Ordnung des Filters dar) des urspriinglichen 
Sprachsignals (d.h. der Abtastungen N - 1, N - 2, 
. . . , N - p) in den Zustand des Synthesef ilters zu 
zwingen und das Filter mit Nulleingang ent laden zu 
lassen. Of f ensichtlich kann man fur die Berech- 
nung der synthetischen freien Entwicklung in ahnli- 
cher Weise vorgehen. 

SchlieSlich ist zu beachten, daS diese Vorgehens- 
weise keine Zunahme der Codierverzogerung mit sich 
bringt, da in der Zielfunktion die Sprachabtastun- 
gen jenseits des Zeitintervalls 0...N - 1 nicht 
verwendet werden. 

3 . DIE GEWICHTUNGS-BASIERENDE VORGEHENSWE I SE 

In dem vorhergehenden Abschnitt wurde dargelegt, 
daS es zur Erzielung einer hohen Qualitat des re- 
konstruierten Signals sehr wichtig ist, da£ die 
synthetische Anregung spektrale und Zeitpunkt- (bei- 
spielsweise Teilungsimpuls) -Charakteristiken auf - 
weist, die ahnlich zu jenen sind, die bei der 
idealen Anregung vorliegen. Daraus folgt, daS es 
wichtig sein kann, nicht nur eine gute Ahnlichkeit 
zwischen der ursprunglichen Sprache und der syn- 
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thetischen Sprache zu erhalten, sondem auch eine 
gute Ubereinstimmung zwischen der idealen Anregung 
und der synthetischen Anregung zu erhalten. 

5 Durch Verwendung einer Vorgehensweise der minimalen 
Quadrate in der klassischen Zielfunktion ermoglichen 
es die Parameter der rekonstruierten Anregung tat- 
sachlich, eine synthetische Sprache zu erzielen, 
die "itn Durchschnitt" ahnlich zu der ursprunglichen 

10 Sprache ist . 



Unter dem Gesichtspunkt der Wahrnehmung ist es 
tatsachlich manchmal wichtiger, daS die synthetische 
Sprache nur lokal der ursprunglichen Sprache ahn- 
15 lich ist (beispielsweise ist es sehr wichtig, die 
Verbindung von einem sprachfreien Segment zu einem 
Sprachsegment innerhalb der richtigen zeitlichen 
Ausrichtung und mit der korrekten Dynamik zu re- 
konstruieren. Es ist nicht ungewohnlich, Verbin- 
20 dungstransienten zu finden, deren Zeitdauer sehr 
viel kurzer als die Zeitdauer des Syntheserahmens 
ist) . Dann ist es fur eine zienvlich lokale Re- 
konstruktion wichtig, einen gewissen Grad an Ahn- 
lichkeit auch mit der idealen Anregung aufrecht zu 
25 erhalten. 
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Die Zielfunktion kann sich dann aus zwei Beitra- 
gen, als Funktion der ursprunglichen Sprache bzw. 
der idealen Anregung, zusammensetzen und nitnmt den 
folgenden Ausdruck an: 

E2 = aE + (1 - a)E3 (7) 

wobei: 

£ = EW») - Gut")? 

(8) 

E3 = £ [e s (n) - Ge ,.(«)] 2 

(9) 

In Glei chung (9) ist e 3 (n) der von dem Referenz- 
signal r s (n) erhaltene Vorhersage-Ruckstand und 
ei(n) ist die Codebuch- Anregung, die das syntheti- 
sche Signal u L (n) erzeugt. Es ist zu beachten, 
daS der Vorhersage-Ruckstand e s (n) ausgehend von 
r s (n) durch eine inverse Filterung (mit einem 
Samtlich-Null -Filter) mit einem ursprunglichen Null- 
Zustand berechnet werden muS. Wie bekannt ist, 
wurde die Referenz tatsachlich aus dem Sprachsignal 
durch Subtraktion ihrer Rekonstruktionsf ilter-Spei- 



- 14 - 

cherermittlung, abgeleitet von der vorhergehenden 
Synthese, erhalten. Das Ref erenzsignal ist dann 
"frei" von jeglichem auf den Filterspeicher zuruck- 
gehenden Beitrag und kann als von einer geeigneten 
idealen Anregung e s (n) erhalten betrachtet werden, 
die mit einem anfanglichen Null-Zustand in das 
Synthesef ilter einlauf t . 

In Gleichung (7) ist a ein Parameter, dessen Wert 
zwischen 0 und 1 liegt und die Bedeuturig steuert, 
die der Minimierung im Hinblick auf das Ref erenz- 
signal zukoTrant. Bei a = 1 wird die ursprungliche 
Zielfunktion wieder erhalten. 

Die Anregungsparameter (d.h. der i-te- Index und 
die entsprechende Verstarkung G) werden dann derart 
gewahlt, urn die in den Gleichungen (7), (8), (9) 
beschriebene Zielfunktion zu minimieren. Der Para- 
meter a kann entweder fest oder sogar adaptiv 
(d.h. zeitlich variierend) sein, beispielsweise als 
Funktion bestimmter Charakteristiken des Signals, 
das a priori geschatzt werden kann (beispielsweise: 
Schatzung von sprachbehaf tet/sprachf rei , Schatzung 
der Transienten, Schatzung der Teilungsperiode oder 
des Synthesef ilters, usw.) . 



- 15 - 



SchlieSlich ist zu beachten, daS der in dem vor- 
hergehenden Abschnitt beschriebene, auf die freie 
Entwicklung zuriickgehende Beitrag in der durch die 
Gleichungen (7) , (8) , (9) beschriebenen Zielfunktion 
mit einbezogen werden kann. In diesem Fall wird 
der Ausdruck (8) der Zielfunktion gemafi der Be- 
schreibung in dem vorhergehenden Abschnitt modifi- 
ziert. 
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Verfahren zum Berechnen der Anregrungsparameter 
in Sprachcodierern basierend auf linearen 
Vorhersage- und Analyse-durch-Synthese-Techni- 
ken, die eine zu minimierende Zielfunktion 
vervenden, dadurch gekennzeichnet , daE die 

Zielfunktion gemeinsam Oder alternativ a) die 
freie Entwicklung des Zielsignals und des 
synthetischen Signals und b) eine Gewichtung 
im Hinblick auf den Fehler zwischen dem 
Vorhersage-Ruckstand und der synthetischen 
Anregung umf afit . 



20 



Verfahren nach Anspruch 1 in den Alternati- 
ven a) oder a) und b) , dadurch gekennzeich- 
net, daS die Zielfunktion: 



Ex = aEl + (1 



a)E3 



(10) 



25 



verwendet wird, wobei die Funktion El neben 
dem Fehler zwischen den Zielsignalen und den 
synthetischen Signalen auch den Fehler zwi- 
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schen den relativen freien Entwicklungen be- 
rucks ichtigt , und die Funktion E3 den Fehler 
zwischen dem Vorhersage-Ruckstand und der 
synthetischen Anregung berucksichtigt, und 0 
< <x <, 0 ist. 

Verfahren nach Anspruch 2, dadurch gekenn- 
zeichnet, daS die Funktion El gegeben ist 
durch: 



wobei N die Lange des Zeitintervalls fur die 
Minimierung ist, M die freie Entwicklungs- 
lange ist, r s el (n) das durch eine freie Ent- 
wicklung erhaltene erweiterte Referenz signal 
ist, Ui ei (n) die erweiterte Null-Zustands-Syn- 
thesef ilterantwort an dem i-ten Eingang des 
Codebuches ist, und G die entsprechende Ver- 
starkung ist . 




(ID 
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Verfahren nach Anspruch 2, dadurch gekenn- 
zeichnet, da£ die Funktion E3 gegeben ist 
durch : 

E3 = £[e» - Ge,(«)] 2 

(12) 

wobei e s (n) der von dem Ref erenzsignal erhal- 
tene Vorhersage-Ruckstand ist und ei(n) das 
Codebuch-Anregungs signal ist . 

Verfahren nach Anspruch 2, dadurch gekenn- 
zeichnet, dafi der Gewichtsf aktor zeitlich 
variierbar ist. 

Toncodierer, der umfafit: 

Mittel zum Ausfuhren einer linearen Vorher- 
sage, 

Mittel zum Ausfuhren einer Analyse -durch- Syn- 
these # und 

Mittel zum Berechnen der Anregungsparameter 
unter Verwendung einer zu minimierenden Ziel- 
funktion, 
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dadurch gekennzeichnet, daS die Zielfunktion 
gemeinsam oder alternativ 

a) die freie Entwicklung des Zielsignals 
und des synthetischen Signals, und 

b) eine Gewichtung im Hinblick auf den 
Fehler zwischen dem Vorhe rs age -Ruck - 
stand und der synthetischen Anregung 
umf afit • 
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